2 research outputs found

    Dealing with heterogeneity in the prediction of clinical diagnosis

    Full text link
    Le diagnostic assisté par ordinateur est un domaine de recherche en émergence et se situe à l’intersection de l’imagerie médicale et de l’apprentissage machine. Les données médi- cales sont de nature très hétérogène et nécessitent une attention particulière lorsque l’on veut entraîner des modèles de prédiction. Dans cette thèse, j’ai exploré deux sources d’hétérogénéité, soit l’agrégation multisites et l’hétérogénéité des étiquettes cliniques dans le contexte de l’imagerie par résonance magnétique (IRM) pour le diagnostic de la maladie d’Alzheimer (MA). La première partie de ce travail consiste en une introduction générale sur la MA, l’IRM et les défis de l’apprentissage machine en imagerie médicale. Dans la deuxième partie de ce travail, je présente les trois articles composant la thèse. Enfin, la troisième partie porte sur une discussion des contributions et perspectives fu- tures de ce travail de recherche. Le premier article de cette thèse montre que l’agrégation des données sur plusieurs sites d’acquisition entraîne une certaine perte, comparative- ment à l’analyse sur un seul site, qui tend à diminuer plus la taille de l’échantillon aug- mente. Le deuxième article de cette thèse examine la généralisabilité des modèles de prédiction à l’aide de divers schémas de validation croisée. Les résultats montrent que la formation et les essais sur le même ensemble de sites surestiment la précision du modèle, comparativement aux essais sur des nouveaux sites. J’ai également montré que l’entraînement sur un grand nombre de sites améliore la précision sur des nouveaux sites. Le troisième et dernier article porte sur l’hétérogénéité des étiquettes cliniques et pro- pose un nouveau cadre dans lequel il est possible d’identifier un sous-groupe d’individus qui partagent une signature homogène hautement prédictive de la démence liée à la MA. Cette signature se retrouve également chez les patients présentant des symptômes mod- érés. Les résultats montrent que 90% des sujets portant la signature ont progressé vers la démence en trois ans. Les travaux de cette thèse apportent ainsi de nouvelles con- tributions à la manière dont nous approchons l’hétérogénéité en diagnostic médical et proposent des pistes de solution pour tirer profit de cette hétérogénéité.Computer assisted diagnosis has emerged as a popular area of research at the intersection of medical imaging and machine learning. Medical data are very heterogeneous in nature and therefore require careful attention when one wants to train prediction models. In this thesis, I explored two sources of heterogeneity, multisite aggregation and clinical label heterogeneity, in an application of magnetic resonance imaging to the diagnosis of Alzheimer’s disease. In the process, I learned about the feasibility of multisite data aggregation and how to leverage that heterogeneity in order to improve generalizability of prediction models. Part one of the document is a general context introduction to Alzheimer’s disease, magnetic resonance imaging, and machine learning challenges in medical imaging. In part two, I present my research through three articles (two published and one in preparation). Finally, part three provides a discussion of my contributions and hints to possible future developments. The first article shows that data aggregation across multiple acquisition sites incurs some loss, compared to single site analysis, that tends to diminish as the sample size increase. These results were obtained through semisynthetic Monte-Carlo simulations based on real data. The second article investigates the generalizability of prediction models with various cross-validation schemes. I showed that training and testing on the same batch of sites over-estimates the accuracy of the model, compared to testing on unseen sites. However, I also showed that training on a large number of sites improves the accuracy on unseen sites. The third article, on clinical label heterogeneity, proposes a new framework where we can identify a subgroup of individuals that share a homogeneous signature highly predictive of AD dementia. That signature could also be found in patients with mild symptoms, 90% of whom progressed to dementia within three years. The thesis thus makes new contributions to dealing with heterogeneity in medical diagnostic applications and proposes ways to leverage that heterogeneity to our benefit

    Modification of functional connectivity in patients with epilepsy: a clustering technique for subject vs. group

    No full text
    Analysis of resting–state (RS) functional networks is a new concept in neuroimaging, which consists in studying slow fluctuations of hemodynamic activity. These fluctuations can be evaluated using the blood-oxygen-level dependent (BOLD) signal measured with functional magnetic resonance imaging (fMRI). Studies have demonstrated that these patterns are organized in space and highly reproducible from subject to subject: the so-called consistent RS networks (RSNs). Assuming that RS activity of patients with epilepsy is affected even when no epileptic activity is observed, the objective of the study is to propose a methodology to identify potential abnormal individual-level networks of patients with epilepsy and to investigate whether the identification of these RSNs could be of some clinical relevance. To do so, we have developed a technique to detect "aberrant" RSNs, as outliers from consistent RSNs extracted from a healthy control population. The identification of RSNs at a group and individual levels was obtained using a spatial clustering technique, the so-called Bootstrap Analysis of Stable Clusters (BASC) (Bellec, Rosa-Neto et al. 2010), which is a statistical framework assessing the stability of the RSNs at the group and at the individual level. Based on the results of BASC, we developed a method to identify, for each patient, the outlier RSNs that statistically differ from the consistent RSNs of the healthy population, thus suggesting the occurrence of aberrant networks.The proposed detection method was evaluated using simulated data (real RS fMRI data on which we added random signals and structured signals at different signal to noise ratio levels) in an attempt to assess its performance and limitations. We demonstrated that the proposed method was highly robust to random noise interference and sensitive to correlated variations between brain structures. Therefore, the proposed method seems promising for future clinical investigation of neurological disorders or drug testing by identifying functionally aberrant networks. This complementary information regarding the abnormal interactions between specific brain regions and other functional network could provide relevant information regarding the extent of a disease.L'analyse de réseaux fonctionnels au repos est un concept récent en neuroimagerie qui consiste en l'étude de fluctuations lentes d'activité hémodynamique. Ces fluctuations peuvent être observées grâce au signal BOLD (Blood oxygenation level dependant) provenant de l'imagerie par résonance magnétique fonctionnelle (IRMf). Plusieurs études ont démontré l'existence d'une organisation spatiale de ces fluctuations lentes, et que cette organisation est hautement reproductible d'un sujet à l'autre: cette organisation spatiale est représentée sous forme de réseaux fonctionnels appelés "consistent resting state networks" (CRSNs). En supposant que l'activité cérébrale d'un sujet épileptique au repos est affectée même pendant les périodes où aucune activité épileptique n'est observée, l'objectif de cette étude propose une méthodologie pour identifier des réseaux fonctionnels potentiellement anormaux au niveau individuel et déterminer si ces derniers peuvent avoir un intérêt clinique. Pour ce faire, nous avons développé une technique de détection de réseaux fonctionnels anormaux en état de repos en partant de l'hypothèse qu'ils diffèrent radicalement des réseaux identifiés chez une population contrôle de sujets sains. L'identification des réseaux fonctionnels au niveau du groupe ou au niveau individuel a été obtenue par une technique de classification spatiale dénommée "Bootstrap Analysis of Stable Clusters" (BASC) (Bellec, Rosa-Neto et al. 2010), un outil d'analyse statistique de réseaux fonctionnels fournissant une mesure de stabilité des différents réseaux identifiés tant au niveau du groupe qu'au niveau individuel. En nous basant sur les résultats fournis par BASC, nous avons développé une méthode d'identification des réseaux aberrants (divergeant significativement de ceux identifiés chez notre population de contrôle) et ce pour chaque patient. La méthode de détection a été évaluée sur des données simulées (de vraies données IRMf acquises durant une période de repos, auxquelles sont ajoutés des signaux aléatoires ou structurés ayant différents rapports signal sur bruit) afin de d'estimer les limitations et performances de la méthode. Nous avons démontré que cette méthode est hautement robuste aux interférences provenant de bruit aléatoire et sensible aux variations de corrélation entre différentes structures cérébrales. De ce fait, la méthode proposée semble prometteuse pour de futures investigations cliniques portant sur des maladies neurologiques ou sur l'impact de certains médicaments sur les réseaux fonctionnels. La méthode permettrait d'identifier les régions dépeignant une organisation fonctionnelle aberrante par rapport à ce qui est identifié au sein d'une population de sujets contrôle. Cette information complémentaire, portant sur l'interaction anormale de certaines régions du cerveau avec d'autres réseaux fonctionnels, pourrait fournir une piste intéressante en ce qui a trait à l'étendue spatiale de la maladie
    corecore